3D point clouds are rich in geometric structure information, while 2D images contain important and continuous texture information. Combining 2D information to achieve better 3D semantic segmentation has become mainstream in 3D scene understanding. Albeit the success, it still remains elusive how to fuse and process the cross-dimensional features from these two distinct spaces. Existing state-of-the-art usually exploit bidirectional projection methods to align the cross-dimensional features and realize both 2D & 3D semantic segmentation tasks. However, to enable bidirectional mapping, this framework often requires a symmetrical 2D-3D network structure, thus limiting the network's flexibility. Meanwhile, such dual-task settings may distract the network easily and lead to over-fitting in the 3D segmentation task. As limited by the network's inflexibility, fused features can only pass through a decoder network, which affects model performance due to insufficient depth. To alleviate these drawbacks, in this paper, we argue that despite its simplicity, projecting unidirectionally multi-view 2D deep semantic features into the 3D space aligned with 3D deep semantic features could lead to better feature fusion. On the one hand, the unidirectional projection enforces our model focused more on the core task, i.e., 3D segmentation; on the other hand, unlocking the bidirectional to unidirectional projection enables a deeper cross-domain semantic alignment and enjoys the flexibility to fuse better and complicated features from very different spaces. In joint 2D-3D approaches, our proposed method achieves superior performance on the ScanNetv2 benchmark for 3D semantic segmentation.
translated by 谷歌翻译
Generating consistent and high-quality images from given texts is essential for visual-language understanding. Although impressive results have been achieved in generating high-quality images, text-image consistency is still a major concern in existing GAN-based methods. Particularly, the most popular metric $R$-precision may not accurately reflect the text-image consistency, often resulting in very misleading semantics in the generated images. Albeit its significance, how to design a better text-image consistency metric surprisingly remains under-explored in the community. In this paper, we make a further step forward to develop a novel CLIP-based metric termed as Semantic Similarity Distance ($SSD$), which is both theoretically founded from a distributional viewpoint and empirically verified on benchmark datasets. Benefiting from the proposed metric, we further design the Parallel Deep Fusion Generative Adversarial Networks (PDF-GAN) that aims at improving text-image consistency by fusing semantic information at different granularities and capturing accurate semantics. Equipped with two novel plug-and-play components: Hard-Negative Sentence Constructor and Semantic Projection, the proposed PDF-GAN can mitigate inconsistent semantics and bridge the text-image semantic gap. A series of experiments show that, as opposed to current state-of-the-art methods, our PDF-GAN can lead to significantly better text-image consistency while maintaining decent image quality on the CUB and COCO datasets.
translated by 谷歌翻译
准确预测高海洋状态的滚动运动对于海洋车辆的可操作性,安全性和生存能力而言是重要的。本文介绍了一种新型的数据驱动方法,用于实现高海国船舶运动的多步骤预测。提出了一个名为ConvlSTMPNET的混合神经网络,以并行执行长期记忆(LSTM)和一维卷积神经网络(CNN),以从多维输入中提取时间依赖性和时空信息。采用KC作为研究对象,使用计算流体动力学方法的数值解决方案可用于在带有不同波动方向的Sea State 7中生成船舶运动数据。考虑到运动状态和波高度的时间史的影响,对特征空间的选择进行了深入的比较研究。比较结果表明,选择运动状态和波高作为多步预测的特征空间的优越性。此外,结果表明,在滚动运动的多步骤预测中,ConvlstMnet比LSTM和CNN方法更准确,从而验证了所提出的方法的效率。
translated by 谷歌翻译
点云上的实例分割对于3D场景的理解至关重要。距离聚类通常用于最新方法(SOTA),该方法通常是有效的,但在用相同的语义标签(尤其是在共享相邻点)的相邻对象中表现不佳。由于偏移点的分布不均匀,这些现有方法几乎不能集中所有实例点。为此,我们设计了一种新颖的鸿沟和征服策略,并提出了一个名为PBNET的端到端网络,该网络将每个点二进制并分别将它们簇簇为细分实例。 PBNET将偏移实例点分为两类:高密度点(HPS vs.lps),然后分别征服。可以通过删除LPS清楚地分离相邻的对象,然后通过通过邻居投票方法分配LP来完成和完善。为了进一步减少聚类误差,我们根据平均大小开发迭代合并算法,以汇总片段实例。 ScannETV2和S3DIS数据集的实验表明了我们的模型的优势。尤其是,PBNET在ScannETV2官方基准挑战(验证集)上实现了迄今为止最好的AP50和AP25,同时证明了高效率。
translated by 谷歌翻译
尽管基于深度学习的单眼行人检测方法取得了长足的进步,但它们仍然容易受到沉重的阻塞。使用多视图信息融合是一个潜在的解决方案,但由于缺乏注释的培训样本,因此应用程序有限,因此可以增加过度拟合的风险。为了解决这个问题,提出了一种数据增强方法,以随机生成3D圆柱体阻塞的地面平面,该缸的平均规模是行人的平均大小,并预测了多种视图,以减轻训练过度拟合的影响。此外,每个视图的特征映射都通过使用同符,将每个视图的特征图投影到不同高度的多个平行平面,这使CNN可以充分利用每个行人高度上的特征来推断地面上的行人位置。与最先进的基于深度学习的方法相比,提出的3Drom方法具有大大提高的性能。
translated by 谷歌翻译
无监督的交叉模式医学图像适应旨在减轻不同成像方式之间的严重域间隙,而无需使用目标域标签。该活动的关键依赖于对齐源和目标域的分布。一种常见的尝试是强制两个域之间的全局对齐,但是,这忽略了致命的局部不平衡域间隙问题,即,一些具有较大域间隙的局部特征很难转移。最近,某些方法进行一致性,重点是地方区域,以提高模型学习的效率。尽管此操作可能会导致上下文中关键信息的缺陷。为了应对这一限制,我们提出了一种新的策略,以减轻医学图像的特征,即全球本地联盟的一致性,以减轻域间隙不平衡。具体而言,功能 - 触发样式转移模块首先合成类似目标的源包含图像,以减少全局域间隙。然后,集成了本地功能掩码,以通过优先考虑具有较大域间隙的判别特征来减少本地特征的“间隙”。全球和局部对齐的这种组合可以精确地将关键区域定位在分割目标中,同时保持整体语义一致性。我们进行了一系列具有两个跨模式适应任务的实验,i,e。心脏子结构和腹部多器官分割。实验结果表明,我们的方法在这两个任务中都达到了最新的性能。
translated by 谷歌翻译
索引是支持大型数据库中有效查询处理的有效方法。最近,已积极探索了替代或补充传统索引结构的学习指数的概念,以降低存储和搜索成本。但是,在高维度空间中准确有效的相似性查询处理仍然是一个开放的挑战。在本文中,我们提出了一种称为LIMS的新型索引方法,该方法使用数据群集,基于枢轴的数据转换技术和学习的索引来支持度量空间中的有效相似性查询处理。在LIM中,将基础数据分配到簇中,使每个群集都遵循相对均匀的数据分布。数据重新分布是通过利用每个集群的少量枢轴来实现的。类似的数据被映射到紧凑的区域,而映射的值是完全顺序的。开发机器学习模型是为了近似于磁盘上每个数据记录的位置。有效的算法设计用于基于LIMS的处理范围查询和最近的邻居查询,以及具有动态更新的索引维护。与传统索引和最先进的学习索引相比,对现实世界和合成数据集的广泛实验证明了LIM的优势。
translated by 谷歌翻译
我们考虑了多视图3D面部重建(MVR)的问题,该问题具有弱监督的学习,该学习利用有限数量的2D脸部图像(例如3)生成具有非常光注释的高质量3D面部模型。尽管其表现令人鼓舞,但现在的MVR方法简单地加入了多视图图像特征,而对关键区域(例如眼睛,眉毛,鼻子和嘴巴)的关注更少。为此,我们提出了一个名为Deep Fusion MVR(DF-MVR)的新型模型,并设计了具有跳过连接的单个解码框架的多视图编码,能够提取,集成和补偿深层特征,并从多视图中注意图片。此外,我们开发了一个多视图面对解析网络,以学习,识别和强调关键的共同面部领域。最后,尽管我们的模型经过了几个2D图像的训练,但即使输入一个2D图像,它也可以重建准确的3D模型。我们进行了广泛的实验,以评估各种多视图3D面部重建方法。对像素面和Bosphorus数据集的实验表明了我们的模型的优势。如果没有3D地标注释,DF-MVR分别比现有最佳弱监督的MVR在像素 - 脸和Bosphorus数据集上分别实现了5.2%和3.0%的RMSE改善;有了3D地标注释,DF-MVR在Pixel-Face数据集上的表现出色,与最佳弱监督MVR模型相比,RMSE改善13.4%。
translated by 谷歌翻译
虽然大多数当前的图像支出都进行了水平外推,但我们研究了广义图像支出问题,这些问题将视觉上下文推断出给定图像周围的全面。为此,我们开发了一个新型的基于变压器的生成对抗网络,称为U-Transformer,能够扩展具有合理结构和细节的图像边界,即使是复杂的风景图像。具体而言,我们将生成器设计为嵌入流行的Swin Transformer块的编码器到二次结构。因此,我们的新型框架可以更好地应对图像远程依赖性,这对于广义图像支出至关重要。我们另外提出了U形结构和多视图时间空间预测网络,以增强图像自我重建以及未知的零件预测。我们在实验上证明,我们提出的方法可以为针对最新图像支出方法提供广义图像支出产生可吸引人的结果。
translated by 谷歌翻译
射频和深度学习在自动胶质瘤分级中显示出很高的普及。辐射瘤可以提取手工制作的特征,定量描述胶质瘤等级的专家知识,深度学习在提取促进最终分类的大量高吞吐量功能方面是强大的。然而,随着它们的互补优势尚未充分调查和整合,仍然可以提高现有方法的性能。此外,通常需要病变图来进行测试阶段的最终预测,这是非常麻烦的。在本文中,我们提出了专业知识引导的几何表示学习(录音)框架。手工制作功能和学习特征的几何歧管构建为挖掘深度学习和辐射族之间的隐性关系,从而挖掘相互同意和胶质瘤等级的必要表现。通过专门设计的歧管差异测量,分级模型可以更有效地利用输入图像数据和专家知识,并在测试阶段摆脱病变分段图的要求。拟议的框架是关于要使用的深度学习架构的灵活性。已经评估了三种不同的架构,并比较了五种模型,表明我们的框架总能产生有前途的结果。
translated by 谷歌翻译